CVPR 2024 | REAL:检索增强提升zero-shot性能,深挖视觉语言模型中的长尾分布现象
以CLIP为代表的视觉语言大模型(VLMs)在zero-shot识别等领域表现出了优异的性能,这改变了很多下游任务的学习范式,研究者们纷纷尝试如何将VLMs集成到现有的框架中来提高下游性能。虽然CLIP在ImageNet等代表性数据集达到了较高的准确率,但是其不可避免的出现了长尾数据识别较差的现象。例如对于“night snake”等十多个长尾类别,模型的识别准确率下降到10%以下。本文介绍一篇发表在计算机视觉顶级会议CVPR 2024上的论文,本文系统的对VLMs中的长尾概念分布问题进行了分析,并通过使用大型语言模型(LLMs)来对VLMs预训练数据集中的概念频率进行测量。作者通过实验发现,目前流行的VLM数据集(例如LAION)存在严重的长尾分布情况,这导致VLM的下游应用,例如视觉聊天机器人(例如 GPT-4V)和文本到图像生成模型(例如stable diffusion)均存在无法识别稀有概念的情况。为了解决这一问题,本文作者提出了一种简单有效的检索增强框架(REtrieval-Augmented Learning,REAL),REAL通过使用预训练文本中最常见的同义词来进行提示,可以显著提升模型的zero-shot性能,同时大幅减少存储占用和训练时间。
本文介绍一篇发表在计算机视觉顶级会议CVPR 2024上的论文,本文系统的对VLMs中的长尾概念分布问题进行了分析,并通过使用大型语言模型(LLMs)来对VLMs预训练数据集中的概念频率进行测量。作者通过实验发现,目前流行的VLM数据集(例如LAION)存在严重的长尾分布情况,这导致VLM的下游应用,例如视觉聊天机器人(例如 GPT-4V)和文本到图像生成模型(例如stable diffusion)均存在无法识别稀有概念的情况。为了解决这一问题,本文作者提出了一种简单有效的检索增强框架(REtrieval-Augmented Learning,REAL),REAL通过使用预训练文本中最常见的同义词来进行提示,可以显著提升模型的zero-shot性能,同时大幅减少存储占用和训练时间。
论文题目:
The Neglected Tails of Vision-Language Models
论文链接:
https://arxiv.org/abs/2401.12425
项目主页:
https://shubhamprshr27.github.io/neglected-tails-of-vlms/
代码仓库:
https://github.com/shubhamprshr27/NeglectedTailsVLM
作者以上图中的“night snake”概念为例,无论是图像到文本模型(GPT4-V、LLaVA1.5)还是文本到图像模型(DALL-E 3、SD-XL),现有的技术都无法很好的理解这一概念。受频率估计的启发,作者在本文中引入一种全新的检索增强方法REAL,来缓解VLMs在zero-shot情况下的性能偏差。
二、长尾概念频率估计
2.1 推导目标概念的同义词
文本数据中存在大量的词汇差异,同一个概念可以使用多种方式进行表达。为此需要先给出当前概念的同义词列表,作者使用ChatGPT来完成这一任务,只需要设置一个简单的提示 "What are some common ways of referring to {concept}?",在得到同义词列表后,作者使用字符串匹配算法来检索包含这些同义词的所有预训练文本。
2.2 过滤掉不相关的预训练文本
简单的字符串匹配算法可能会因为语言歧义而检索到语义不相关的文本。例如对于“老虎(tiger)”这一概念,检索到的文本中可能会出现“虎鲨在水中游泳(tiger shark swimming in water)”,虽然虎鲨中也出现了单词“tiger”,但是老虎和虎鲨是完全不同的两个概念。为了对这些混淆文本进行过滤,作者使用Llama-2模型进行操作,对每个检索到的文本,作者通过提示模型 “Does {concept} in the {caption} refer to {definition}?” 来确定当前文本是否满足当前概念的语义上下文。
三、本文方法
本文提出的REAL通过检索与目标概念相关的预训练数据来提高性能,而无需使用下游任务的任何数据。REAL有两种形式:REAL-Prompt 和 REAL-Linear。前者是一种全新的提示策略,可以将原始概念名称替换为预训练文本中最常见的同义词。而后者 REAL-Linear 可以从预训练数据中检索与概念相关的图像,以形成更平衡的子集,用于训练鲁棒的线性分类器。
3.1 REAL-Prompt
通过对LAION-400M等数据集进行长尾频率估计后,作者发现有些概念的同义词可能比该概念本身更加频繁的出现在预训练语料中。因此作者提出使用最常见的同义词来构建提示,如下图所示。
例如对于“cash machine(提款机)”概念,其同义词“ATM”在预训练文本中的出现频率达到了76%,远远高于概念本身,REAL-Prompt可以直接将其转换为“ATM”来构建提示,转换后的提示在下游zero-shot任务中展现出了更好的性能。
3.2 REAL-Linear
为了进一步提升性能,作者还设计了一种检索后微调的方法REAL-Linear。REAL-Linear可以快速收集与目标概念相关的图像文本对,如下图所示。
对于每个概念,作者根据检索到的文本与该概念特征(使用OpenCLIP的文本编码器进行计算)之间的余弦相似度对检索到的数据进行排序。随后对为每个概念选取相同数量的图像,来保证收集到的新子集类别分布是平衡的。
四、实验效果
下表展示了本文方法的zero-shot性能,表中上半部分展示了REAL-Prompt与其他基于提示方法的性能对比。由于REAL-Prompt仅需使用同义词对原始概念名称进行替换,因而相比其他方法更加经济。
此外,作者还表明本文提出的REAL-Prompt可以对现有的文本到图像生成模型进行增强。上图以两个罕见概念:“bank swallow”和“thorn apple”为例,DALL-E 3无法对这些概念生成正确的图像,经过检索增强后的REAL-Prompt可以将这些概念分别替换为:“sand martin”和“datura”,从而保证生成模型可以正确理解来生成语义一致性的图像。
五、总结
本文对视觉语言模型(VLM)领域中一直被忽视的长尾问题进行了深入的研究,作者首先使用大型语言模型(LLM)来对VLM多模态预训练数据集中的概念频率进行了统计,非常重要的是,本文证明了长尾概念分布与 VLM 的zero-shot性能之间存在很强的相关性。为了解决这种不平衡问题,我们提出了检索增强学习REAL方法(REAL-Prompt 和 REAL-Linear)。其中REAL-Prompt可以将下游任务中的原始类名替换为预训练文本中最常见的同义词来提高性能。另一方面,REAL-Linear 利用概念同义词来构建预训练数据的平衡子集,用来训练更加鲁棒的线性分类器。综合来看,REAL的性能更加高效,还可以对现有的图像文本模型进行增强。
参考资料
[1] Christoph Schuhmann, Richard Vencu, Romain Beaumont, Robert Kaczmarczyk, Clayton Mullis, Aarush Katta, Theo Coombes, Jenia Jitsev, and Aran Komatsuzaki. Laion-400m: Open dataset of clip-filtered 400 million image-text pairs. arXiv:2111.02114, 2021.
[2] Zhiqiu Lin, Samuel Yu, Zhiyi Kuang, Deepak Pathak, and Deva Ramanan. Multimodality helps unimodality: Crossmodal few-shot learning with multimodal models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 19325–19337, 2023.
扫码观看!
本周上新!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
chenhongyuan@thejiangmen.com
或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器。公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”: bp@thejiangmen.com